查看原文
其他

薛万国:医疗数据长期保存面临挑战,归档管理是解决之道

姜浩整理 HIT专家网官微 2022-11-03

导读

医疗数据的长期保存是一个复杂的系统工程,涉及到对既有系统的重构。

数据是信息系统中最重要的资源。在信息系统已成为业务的重要支撑和数据长期积累的背景下,医院对数据的日常管理愈加重视,部署了数据备份、系统容灾等保护方案,并加强了数据资源的开发利用。但在医疗数据的长期保存管理方面,业界讨论还相对较少,对数据归档管理的必要性和方案机制尚缺乏足够的重视。

2021年10月14日,在由HIT专家网主办、日立数据(Hitachi Vantara)协办的“医疗数据存储管理在线论坛”上,解放军总医院医学大数据研究中心原主任薛万国分享了有关医疗数据长期保存的系统思考。

解放军总医院医学大数据研究中心原主任 薛万国

医疗数据为什么需要长期保存

医疗数据来自于日常医疗活动中的各个业务环节,内容丰富,来源广泛。从构成上来看,主要可分为结构化数据、文本数据及影像数据等几大类。从薛万国的经验来看,三者数据体量之比大约为1:10:1000。

薛万国介绍,医疗数据需要长期保存,是法律法规方面的要求和信息技术应用使然。根据我国卫生行业法规要求,门(急)诊病历的保存时间为自患者最后一次就诊之日起不少于15年,住院病历保存时间为自患者最后一次住院出院之日起不少于30年。而在电子病历时代,为满足患者个人终生健康需求,以及支持大数据时代的医学研究,人们期望医疗数据的保存期限可以延长到100年以上,甚至是“无期限”。

从医疗数据的使用需求来看,存在四类典型场景:诊疗使用,以患者个体为中心,使用时可按时间顺序、内容类别等不同方式呈现各类诊疗信息;管理利用,围绕医院管理主题,批量抽取相关业务域数据,开展统计分析;科研利用,围绕科研主题,按疾病、手术、用药等条件自由检索,抽取相关特征进行分析;法律证据,作为发生医疗纠纷时的呈堂证供,提供数据的原始内容及外观格式。

从技术角度解读上述使用需求,又可以将其分为两大类:一类是非结构化使用,也即“人读”,以文档记录为单位;一类是结构化使用,也即“机读”,以结构化元素为单位。

“医疗数据的长期管理既要满足‘人读’需要,也要满足‘机读’需要。”薛万国认为,这也衍生出医疗数据的两类保存格式需求:第一类满足“人读”需求,在保存内容的同时保存外观,相当于纸质病历的作用,可以文档记录为单位进行调阅,PDF、JPG格式均可;第二类满足“机读”需求,保存数据的结构化内容,既以文档为单位,也以元素为单位,应保存为数据库、XML等结构。

薛万国将医疗数据的保存需求总结为四个方面:首先是集成化要求,将来自于多源异构系统的医疗数据,以患者个体为中心进行集中统一管理,而非分散在各个业务系统中;其次是长期化要求,能够持续追加归集、长期存储和管理患者医疗数据;第三是结构化要求,以文档、元素结构化方式保存患者病历数据,满足后期数据利用需要;最后是原始化要求,保留病历文档原始外观样式,保证病历文档的不可篡改和内容完整性。

医疗数据长期保存面临四大挑战

薛万国认为,医院在实现医疗数据长期保存的过程中面临四大挑战。

挑战一:集成问题。首先表现为数据集成难度大,主要原因是:医院异构系统的数量大,缺乏统一的记录与接口标准支持,部分专科系统的医疗记录结构复杂。其次表现为数据统一管理难度大,不但不同类型的医疗文档结构各不相同,同一类型的文档结构也可能随时间发生变化,数据存储兼顾结构化内容与外观样式的要求高。

挑战二:容量问题。伴随着医学科技的进步,医疗数据类型逐渐增多(如新型影像数据、组学数据等),影像空间分辨率增加,导致整体数据量激增,大型医院的数据积累已达PB级并持续增长。持续的存储扩容已经成为医院信息化建设常态,医院信息中心需要频繁对既有存储设备进行扩容或替换,由此带来令人头疼的数据迁移问题。此外,由于数据使用频次的明显不同,“热数据”与“冷数据”之间的管理矛盾待解,如果对其采用相同的存储技术,既不合理也难以持续。

挑战三:性能问题。医疗数据需长期在线访问,数据量的持续增长严重拖累了数据库性能。随着运行时间的增加,医院信息系统性能下降成为普遍现象。另一方面,数据长期积累也会影响数据备份与恢复时间。让医院信息中心苦恼的问题包括:数据全备份“窗口期”持续增长、备份策略愈加复杂、故障后数据恢复周期过长等。

挑战四:标准与可解读问题。随着技术变迁与系统变迁,历史数据的长期“解读”问题已经显现,未来将更为突出。由于医疗数据缺乏统一的存储管理模型,不同厂商的系统数据结构完全不同,不同厂商、不同时期的数据编码不同,部分数据甚至采取私有加密方式存储。对于医院信息中心而言,更换或升级系统普遍面临数据迁移困难的问题:旧数据或者不能“解读”,或者由于结构差异和数据量大导致转换迁移难度很高。

医疗数据长期保存的解决思路

“伴随着时间的流逝,医疗数据的长期归档管理问题将会愈加凸显。”为此,薛万国提出以下解决思路。

首先,建立医疗数据归档管理机制。解决问题要从源头做起,薛万国认为:“无论是数据存储容量还是数据访问性能问题,都是没有处理好‘冷数据’、‘热数据’之间的管理矛盾所致。”他建议:定期将不活跃的数据从业务数据库中剥离,分开管理,以此解决长期管理与访问性能、少量活跃数据与大量静态数据的矛盾。

对归档后的数据采取与现行数据不同的管理方式,建立适用于静态数据、长期管理的数据格式(如以患者为中心的文档结构)。在归档数据的模型设计方面,采用混合技术建立统一模型:对于结构稳定的数据,如处方、检验报告等,可采用数据库或XML格式进行管理;对于非结构化的数据,如影像、病历文本、PDF等,可通过文件形式进行管理;对于结构复杂多变的数据,如专科报告或病历等,可采用XML文档方式进行管理。

在归档时机的选择上,可以定为患者就诊结束一段时间后(如3个月、6个月等)。

第二,保留文档的原始外观与数据内容。建议医院长期保存两种形式的病历记录:面向“人读”需求,采用打印格式的PDF进行保存,同时保留数据内容及外观;面向“机读”需求,不考虑数据的外观,通过上述归档数据模型以纯数据形式进行保存。“这两种方式可以共存,以满足不同的使用场景。”

第三,采用基于PKI的数字签名确保文档的原始性。薛万国建议医院合理选择数字签名的时机:对不同来源的医疗文档,可借助医院统一的CA证书在归档保存时统一进行数字签名。这样做的好处是,归档前的数据涉及众多系统,各自签名实施难度大,而统一签名降低了实施难度。

第四,建立业务系统对归档数据的访问机制。薛万国建议了两种访问模式:第一种模式是“离院归档,来院还原”,也即数据进入不活跃期(如患者结束就诊3个月后)时,将其抽取到归档系统,待患者下次就诊时再将归档数据还原;第二种模式是“跨库访问”,也即改造电子病历等业务系统,使其能够同时从现行数据库与归档数据库中调阅数据并进行“拼合”。此外,对于数据进行二次利用的非业务系统,可以将归档数据作为数据源另行建立统计数据库。

第五,对医疗数据进行分级分类存储。“在容量、性能、成本三因素之间进行平衡是分级分类存储的基本原则。”薛万国认为,现行数据可以采用高速盘阵,提供高速性能;在归档数据中,归档结构化数据、中期影像数据等可以使用速度相对较慢的中速存储阵列,长期归档的影像数据则可以使用低速存储。根据数据类别的不同,医院可根据自身数据量采用两级或三级结构的存储体系。

在归档数据存储技术的选择上,薛万国认为,大容量(PB至10PB以上)、长期可靠(数据可靠性高、设备10年以上无需更换)、绿色节能、管理简便,是医院和医疗数据对存储技术的基本要求。“目前存储技术对结构化和文本医疗数据的支持已较为充分,但对归档医学影像数据的支持还需加强,归档存储的技术与方案有待进一步选择验证。”

薛万国进一步认为,医疗数据的长期保存是一个复杂的系统工程,关键在于其不单纯是数据归档问题,还包括归档后的数据使用问题,涉及到对既有系统的重构。目前已有不少医院对业务无纸化进行了探索,但其目的是解决纸质病历的保存问题,并未过多考虑后续的数据利用,因此也未能建立起能够解决各种发展矛盾的、完善的医疗数据归档管理机制。

“当前医院信息化关注的重点仍是用于数据集中存储的临床数据资源库(Clinical Data Repository,CDR)建设,目前还缺乏支持长期存储的CDR系统架构,以及与之相匹配的存储设施方案。”薛万国说,未来随着数据的积累,长期存储体系的需求将更加突出,CDR的架构形态也会进一步发展演变。

近期热文
HIT专家网∣致力推进中国卫生信息化长按二维码可申请加入HIT专家网专业交流群投稿:gong_chen@HIT180.com

商务合作:(010)82373062

本公众号原创文章,版权归原作者所有。

未经许可,谢绝转载或以其他形式使用文章内容进行传播。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存